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摘 要 : 特征 项 的 选择 和 特征 权 值 的 计算 是 文本 分 类 过 程 中 两 个 至 关 重 要 的 环节 ， 对 文本 分 类 的 结果 起 关键 性 作用 。 
为 了 克服 传统 的 CHI 统计 方法 存在 特征 项 出 现 频 率 与 类 别 负 相关 的 情况 和 某 一 个 特征 项 存在 于 某 一 个 文本 中 的 概率 
问题 , 针对 传统 的 CHI 统计 方法 引入 了 负 相 关 判 定 、 频 度 等 重要 因素 进行 了 改进 , 并 结合 语义 相似 度 的 计算 方法 对 TF- 
IDF 算法 进行 了 优化 ， 在 WEKA 软件 上 采用 了 KNN (K-nearestneighbor) 分 类 器 和 支持 向 量 机 (SVM) 分 类 器 分 别 对 
微 博 情 感 语 料 进 行 分 类 ， 该 实验 结果 表明 ， 新 方法 在 文本 分 类 的 准确 性 上 有 明显 的 提高 。 
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Optimization of TF-IDF algorithm combined with 1mproved CHI statistical method 
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Abstract: The selection of feature items and the calculation of feature weights are two crucial links in the process of text 
classification and play a key role in the results of text classification. In order to overcome the traditional CHI statistical method, 
there is a negative correlation between the frequency of feature items and the category, and a probability problem that a feature 
item exists in a text, The traditional CHI statistical method is improved by introducing some important factors such as negative 
correlation judgment and frequency, and the TF-IDF algorithm is optimized by combining the calculation method of semantic 
similarity. The K-nearest neighbor (KNN) classifier and support vector machine (SVM) classifier are respectively used in WEKA 
software to classify the Weibo emotional corpus The experimental results show that the new method has obvious improvement 


on the accuracy of text classification. 
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前 ,文本 分 类 研究 方面 ， 郭 正 斌 通过 利用 权 值 和 维度 的 
调整 对 文本 向 量 空 间 模型 进行 优化 ， 提 出 了 一 种 新 的 面向 文本 

随 着 互联 网 的 快速 进步 ， 电 子 信 息 量 越 来 越 膨胀 ， 那 么 如 。” 分 类 的 优化 方法 ， 可 以 达到 优化 向 量 空间 目的 外。 周 庆 平 将 改 
何 将 大 量 的 信息 进行 有 规律 的 有 效 的 、 有 组 织 的 管理 呢 [ 53? 进 的 X” 统计 方法 与 聚 类 相 结合 ， 最 后 通过 改进 的 KNN 进行 分 
文本 分 类 作为 处 理 和 归纳 大 量 数据 的 关键 技术 ， 可 以 在 很 大 程 ”类 ， 可 以 提高 分 类 效果 中。 徐 明 针对 于 微 博 特 征 选择 的 问题 作 
度 上 解决 信息 没有 条 理 的 现象 ， 使 用 户 可 以 从 大 量 的 信息 中 快 ” 了 相关 的 研究 与 说 明 ， 提 出 了 一 种 新 的 卡 方 统计 的 算法 ， 在 


| 


ml 


速 得 获取 有 价值 的 信息 ， 因 此 在 舆情 控制 、 信 息 安 全 、 协 同 过 ”KNN 和 SVM 分 类 下 进行 测试 ， 得 出 了 在 微 博 信息 分 类 上 准确 
滤 、 产 品 推荐 等 方面 具有 广泛 应 用 叫 。 率 有 一 定 的 提高 冉 。 
在 文本 分 类 过 程 中 有 两 个 主要 的 因素 影响 着 分 类 的 最 终结 文本 分 类 过 程 中 最 常用 的 特征 选择 方法 之 一 是 CHI 统 计 方 


果 : 一 是 特征 项 的 选择 ， 二 是 特征 项 权重 的 计算 方法 。 特 征 选 ”法 , 传统 的 CHI 统计 方法 没有 考虑 到 特征 项 出 现 频率 与 类 别 负 
择 是 从 大 量 的 词语 中 选择 出 一 部 分 有 价值 的 特征 项 进行 分 类 ， 相关 的 问题 ， 也 没有 顾虑 到 某 一 个 特征 项 存在 于 某 一 个 类 别 文 
使 分 类 的 结果 达到 最 优化 和 内。 特征 项 的 权重 计算 方法 是 用 于 文 ” 本 的 情况 ， 为 解决 以 上 问题 ， 本 文通 过 判断 正 负 的 方式 去 除了 
本 的 数据 统计 ， 给 特征 项 赋 权 ， 特 征 权重 是 用 来 权衡 某 一 个 特 ”特征 项 出 现 频率 与 类 别 负 相关 的 情况 ， 并 引入 了 频 度 等 重要 因 
征 项 在 某 一 个 文本 中 的 重要 程度 由。 素 对 传统 的 CHI 统计 方法 进行 了 相应 的 改进 , 在 此 基础 上 引入 
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进行 了 结合 


了 特征 提取 因子 : ， 将 语义 相似 度 算法 与 传统 的 TF-IDF 算法 
万 化 ， 从 而 提高 某 一 个 特征 项 在 类 别 文 本 中 的 重要 


程度 ， 达 到 降低 维度 的 效果 ， 最 终 提高 了 文本 分 类 的 准确 性 。 


1 CHI 统计 方法 


CHI 统计 方法 是 
性 ， 其 关联 列表 如 表 1 所 示 。 
表 1 特征 


用 来 测量 特征 项 w 与 类 别 c 之 间 的 相关 


页 与 类 别 关 系 表 


其 中 ， 属 于 类 别 k 日 
属于 类 别 k 但 存在 特征 项 w 的 文本 数量 ， 
K 但 不 包含 特征 项 w 的 文本 数量 ， 
不 包含 特征 项 w 的 文本 数量 ， 


如 下 : 


X’(w,c) = 


且 有 N=A+B+C+D。 


L 存 在 特 和 


当 CHI 的 值 等 了 


F 0 时, 表示 特 和 


FE 项 w 的 文本 数量 ， 


命名 为 p。 则 CHI 值 的 计算 公式 


N(AD- BC)’ 


命名 为 4; 不 


命名 为 B 属于 类 别 
命名 为 C; 不 属于 类 别 K 也 
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项 出 现 频 率 与 类 别 负 相 关 的 问题 没有 解决 , 那么 这 种 负 相 关 的 
情况 最 后 会 影响 CHI 的 值 ， 所 以 特征 选择 的 结果 会 受到 影响 ， 
进而 影响 到 文本 分 类 的 精确 率 ， 因 此 本 文通 过 去 除 特征 项 出 现 
频率 与 类 别 负 相关 的 方式 来 解决 这 一 问题 ， 改 进 后 的 公式 为 


N(AD- BC) 
AD-BC>0 

X’(w,c)=1 (A+C)A+B)B+D)C+D) Se (2) 
0 4D-BC<0 


由 于 CHI 统计 方法 没有 考虑 某 一 个 特征 项 存在 于 某 一 个 
文本 中 的 次 数 ， 而 只 是 考虑 了 存在 于 全 部 文本 中 的 次 数 ， 文 献 
[9] 中 指出 特征 选择 的 关键 在 于 特征 项 集中 均匀 的 分 布 在 某 一 
类 别 文 本 中 ， 所 以 本 文 将 频 度 a， 集 中 度 8， 分 散 度 /引进 传 
统 的 CHI 统计 公式 中 。 假 设 训练 集 类 别 为 C 的 文本 
do ...， di ... dn，tfx 表 示 特 征 项 w 在 文本 dx(1<k<m) 中 
存在 的 频率 ,表示 某 个 类 别 中 的 文本 总 数 ，qf; 表 示 类 C 中 含 
有 特征 项 w 的 本 文 数量 ，n 表示 文本 类 别 总 数量 。 

a) 频 度 , 指 某 一 类 别 文本 中 出 现 某 一 个 特征 项 的 次 数 占 此 
类 别 的 文本 总 数量 的 比重 。 则 特征 项 w 在 类 别 Cj 中 存在 的 频 


(A+O)(A+B)(B+D)(C+D) (1) 


E 项 w 与 类 别 c 之 间 没 有 任 


何 关系 ; 当 CHI 的 值 越 大 时 ， 表 示 特 征 项 w 与 类 别 c 的 关系 性 


越 强 。 


现 有 研究 发 现 ， 传 统 CHI 统计 有 两 处 不 足 : 


a) 传统 的 CHI 统计 方法 存在 着 特 生 
相关 的 问题 ， 还 存在 着 倾向 于 选取 在 文本 
的 特征 项 ,这样 的 特 生 


F 项 出 现 频率 与 类 别 负 


出 现 比 例 相 对 较 少 


E 项 中 的 绝 大 部 分 与 类 别 没有 较 强 的 联系 ， 


甚至 没有 任何 关系 ,只 
b) 传统 的 CHI 统计 方法 没 


CHI 值 可 能 会 低 。 


个 别 的 特征 词 与 类 别 存 在 较 强 的 联系 。 
考虑 到 某 一 个 特征 项 存在 于 
某 一 个 文本 中 的 概率 ,而 只 是 考虑 了 存在 于 全 部 文本 中 的 概率 ， 


如 果 某 一 个 特征 项 在 某 一 类 别 的 多 数 文本 
类 别 的 少数 文本 中 很 少 存在 , 则 此 时 CHI 的 值 可 能 会 高 ,相反 ， 


2 ”改进 的 CHI 统计 方法 


特征 项 与 文本 类 别 存在 两 种 关系 
a) 当 AD-BC 的 值 大 于 0 为 了 
类 别 为 正 相 关 ， 即 特征 项 存在 的 文本 属 了 
大 ， 正 数 越 大 ， 那 么 


可 以 作为 特征 选择 的 特征 项 。 


b) 当 AD-BC 


的 值 小 于 0 为 负数 时 , 说 
类 别 为 负 相 关 ， 即 特征 项 出 现 的 文本 属 ] 
小 ， 负 数 越 小 ， 那 么 它 的 习 


不 可 以 作为 特征 选择 的 特征 项 。 
从 传统 的 CHI 统计 方法 的 计算 公式 可 以 看 出 ， 如 果 特 征 


集中 存在 ， 而 在 此 


青 况 : 
E 数 时 ,说 日 


特征 项 出 现 频率 与 


F 某 一 个 类 别 的 机 率 越 
它 的 平方 越 大 ， 则 CHI 的 值 就 越 大 ， 因 此 


特征 项 出 现 频率 与 


F 某 一 个 类 别 的 机 率 越 


F 方 越 大 ， 则 CHI 的 值 就 越 大 ， 因 此 


度 4 表示 如 下 : 
a = |> djo? G) 
k=] 


b) 集 中 度 , 指 某 一 个 类 别 文 本 中 存在 的 某 一 个 特征 项 的 文 
本 数量 占 含 此 特征 项 的 文本 数量 的 比重 。 则 特征 项 w 存 在 于 类 
别 C 中 的 集中 度 6 表示 如 下 : 


(n.df -> 
n: >af 
总 


c) 分 散 度 , 某 一 个 类 别 中 含 某 一 个 特征 项 的 文本 数量 占 该 
类 别 量 中 总 文本 数 的 比重 。 则 分 散 度 表示 如 下 : 
d 
y= 羡 (5) 


m 


由 以 上 的 定义 可 知 ， 某 一 个 特征 项 w， 聚 集 的 存在 于 某 一 
个 类 别 的 大 部 分 文本 中 的 次 数 越 多 ， 说 明 其 频 度 越 高 ， 集 中 度 
强 ， 分 散 度 大 ， 这 样 的 特征 项 对 文本 分 类 结果 有 很 大 的 作用 
于 是 在 式 (2) 的 基础 上 引入 了 频 度 、 集 中 度 、 分 散 度 ， 得 到 如 
下 公式 : 


N(AD- BC) 


AD-BC>0 
X’(w,c)= CEOUHEGBTDICTD 2xAx7 
0 


(6) 


4D-BC<0 


3 传统 的 TF-IDF 算法 及 其 改进 
3.1 传统 的 TF-IDF 算法 


TF-IDF 通常 用 于 衡量 
重要 程度 。TF-IDF 算法 是 
上 是 TF 与 IDF 的 乘积 。 


个 字 或 者 一 个 词语 在 语 料 集中 的 
Jones" 首次 提出 的 ，TF-IDF 实际 


全 = 序 0 


其 中 :2 代表 存在 于 文本 了 工 中 的 特征 项 的 次 数 ， 妈 代表 文本 工 中 
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的 总 词语 数量 。 


IDF = oa +0.0 1 
n 


其 中 :VW 为 总 文本 数量 ，n 为 含有 茶 个 特征 项 的 文本 总 数量 。 


则 TF-IDF 的 特征 提取 函数 为 


F(w)=TF(w)e IDF(w) (9) 


归 一 化 后 的 传统 TF-IDF 公式 如 下 : 


Wi = 


确 x loglW/ . +0.0]| 
M 


(Sooay oo 


A 


(10) 


其 中 :到 ,代表 特征 项 的 权重 ,tf 代表 某 一 个 特征 项 存在 于 某 一 
个 文本 中 的 频率 ，7og (Wij70. 07) 为 道 文本 频率 ，W 代表 类 别 


文本 的 总 数量 ，pj 代 
3.2 优化 的 
采取 了 


表 存 在 某 一 个 特征 项 的 文本 数量 。 


TF-IDF 算法 
和 专 统 的 归 一 化 T 特征 项 与 类 别 变化 方向 相反 F-IDF 


算法 来 给 特征 项 赋 权 值 时 ， 只 考虑 了 特征 项 在 分 本 中 的 分 布 情 


况 ， 并 没有 考虑 词语 
之 间 的 相似 性 ， 
中 的 这 一 特点 。 文 献 
对 知识 语言 分 析 可 知 
特征 结构 来 表达 ， 语 
相似 度 的 算法 来 确定 


的 近义词 存在 于 文本 中 情况 ， 忽 略 了 词语 


如 果 采 取 该 算法 给 特征 项 赋 权 值 就 忽略 了 文本 


下 中 提出 了 词语 相似 度 的 计算 方法 ， 通 过 
,知识 语言 的 数据 结构 可 以 用 集合 与 义 原 、 
义 的 相似 度 计算 是 采取 “ 知 网 ”中 的 计算 
，Y 的 系统 设 定 值 为 0.8。 该 算法 对 词语 


相似 度 的 准 


E 确 性 有 一 定 的 提高 。 为 了 解决 特征 词 在 文本 中 会 出 


现 近 义 词 的 情况 ， 本 文 将 语义 相似 度 的 计算 方法 应 用 到 传统 的 


TF-IDF 算法 中 ， 从 而 
项 更 
表 出 


岗 在 某 一 个 文本 


的 结果 直接 影响 到 特征 项 在 文本 中 的 重要 程度 。 


下 : 


其 中 :a 代表 存在 于 文本 7 中 的 特征 项 ;的 数量 ， 


有 代表 性 意义 。 


ChinaXiv 合 作 期 刊 


马 ” 营 ， 等 : 结合 改进 的 CHI 统计 方法 的 TF-IDF 算法 优化 


4 ”实验 结果 与 分 析 


4.1 


对 比 , 微 博文 本 较 短 , 对 


字符 为 限 


实验 数据 及 环境 
本 文采 用 微 博文 本 作为 实验 数据 , 与 传统 的 网 络 文本 进 
严格 的 要 求 约束 , 规定 以 140 个 
E, 不 可 控 性 的 特点 ”。 实 验 


,并 


数据 采用 
Window 7 


， 软 件 是 py 


源 工 具 进 
类 器 进行 
4.2 


到 某 一 个 


文本 数量 。 


行 实验 结果 对 
数据 测试 分 析 


评价 指标 
假定 在 类 别 的 分 类 结果 中 ， 式 代表 某 一 个 特 生 
类 到 茶 一 个 类 别 的 文本 数量 ， 
类 别 的 文本 数量 ， 
具体 的 公式 表示 如 下 : 


4.3 实验 及 结果 


实验 1 


字数 
且 具 有 偶然 性 ， 实 时 性 
了 4000 条 的 新 浪 微 


将 微 博 的 情感 分 为 两 


趾 语 料 


thon 编程 技术 ,采用 


比 。 在 实验 


进行 数据 分 析 ， 


o 


代表 某 一 个 特 
2 代表 某 一 个 特 和 


分 别 使 用 了 KK 


全 


一 信 


Weka3. 6 数据 挖掘 开 


EE 脑 系 统 是 


和 SVM 分 


E 项 被 正确 分 
FE 项 被 错误 分 类 


方面 


负 向 情感 ， 比 较 了 在 相同 维度 的 特 生 


E 项 被 遗漏 分 类 的 


(13) 


(4) 


(15) 


i, 一 是 正 向 情感 ， 二 是 


FE 下 ， 对 结合 改进 的 CHI 统 


计 方 法 的 TF-IDF 算法 、 传 统 的 CHI 统计 方法 和 改进 的 CHI 统 


使 特征 项 在 文本 中 的 权重 变 大 ， 让 此 特征 计 方 法 在 KNN 分 类 器 效果 下 的 进行 了 实验 对 比 。 实 验 结果 如 表 
为 此 本 文 提 出 了 特征 提取 因子 ，。 代 2 所 示 。 
中 的 某 一 个 特征 项 的 数量 与 此 特征 项 相似 表 2 500 维度 KNN 分 类 器 下 三 种 方法 的 对 比 

度 大 于 Y 的 特征 项 的 数量 之 和 与 所 有 特征 项 的 数量 的 比例 ， e 语 料 传统 的 CHI 改进 的 CHI ”| 结合 改进 的 CHI 和 优化 的 TFJIDF 

定义 公式 如 了 雹 二 远 远 二 志 二 元 : 二 

负 向 情感 86.1 | 90.2 | 88.1 | 87.4 | 89.8 | 88.6 88.0 89.7 88.8 

a+b 平均 87.9 | 87.8 | 87.8 | 88.4 | 88.4 | 88.4 89.0 89.1 89.0 

< 从 表 中 可 以 看 出 , 在 相同 维度 的 特征 下 采用 KNN 分 类 器 ， 
bp 代表 与 特征 通过 对 微 博 的 正 向 情感 和 负 向 情感 在 召回 率 R、 查 准 率 P、F 值 
c 代 表 所 有 特征 项 的 数量 。 三 个 指标 上 进行 了 比较 ， 得 出 结合 改进 的 CHI 统计 方法 的 TF- 


项 ;相似 度 大 于 YY 的 特征 项 的 数量 ， 


为 了 提高 特征 项 权 值 


的 准确 度 ， 本 文 在 结合 语义 相似 度 算法 的 


基础 下 引进 了 特征 提 


丸子 “对 传统 的 归 一 化 TF-IDF 算法 进 


行 了 优化 ， 实 现 ] 


式 与 语义 的 结合 。 


其 定义 公式 如 下 : 


fjxe xlog(N/, +0.0 


Wi= 


\ > Vxs log(V， + oo (2 


其 中 :1 防 代表 特征 项 的 权重 ，X 代表 类 别 文本 的 总 数量 ， 
代表 某 一 个 特征 项 的 文本 数量 与 此 特征 项 的 相似 度 大 于 Y 的 特 


i 


征 项 的 文本 数量 之 和 


的 平均 值 。 


IDF 算法 比 传 统 的 CHI 统计 方法 和 改进 


指标 上 都 
法 的 平均 
个 百分点 


有 一 定 的 提升 
查 准 


， 说 明 结合 


,结合 改进 的 


了 微 博 情感 分 类 的 准确 率 。 


KNN 分 类 
对 比 。 实 


实验 2 比较 了 
法 的 IF-IDF 算法 、 


效果 


的 进行 了 实验 ， 对 以 上 三 者 在 碍 ; 


的 CHI 统计 方法 在 三 个 


CHI 统计 方法 的 TF-IDF 算 


E 率 比 传统 的 CHI 统计 方法 的 平均 查 准 


率 高 出 1.3 


进 的 CHI 统计 方法 的 TF-IDF 算法 提高 


在 不 同 维度 下 ， 对 结合 改进 的 CHI 统计 方 
传统 的 CHI 统计 方法 和 改进 


的 CHI 统计 在 


率 上 进行 了 


验 结果 如 表 3 所 示 。 
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上 


RR 3 不同 维 度 下 KNN 分 类 器 三 种 方法 的 对 比 


维度 传统 的 CHI | 改进 的 CHI | 结合 改进 的 CH 和 优化 的 TF-IDF 
400 87.7 88.4 89.0 
600 88.0 89.0 89.3 
800 89.0 90.0 90.8 
1000 89.5 90.2 91.3 


一 9 一 传统 的 CHI 
一 村 一 改 运 的 CH 

85 

Es 一 研一 符合 改进 的 CHI 和 优化 的 TF-DF 

83 T 

200 400 600 800 1000 
维度 
图 1 在 不 同 维度 下 KNN 分 类 器 的 准确 率 


从 图 1 中 可 以 看 出 : 无 论 是 在 哪 一 个 维度 特征 下 


分 类 器 ， 


比 传 统 的 CHI 统计 方法 和 改进 的 
可 观 ， 特 别 是 在 200 和 600 维度 的 特征 下 此 算法 的 


显 的 提高 。 
实验 3 比较 了 在 KNN， 


400、600、800、1000 维度 下 的 


采用 KNN 


结合 改进 的 CHI 统计 方法 的 TF-IDF 算法 在 查 准 率 P 上 


SVM 分 类 器 下, 


度 分 别 在 200、 
传统 的 CHI 统计 方法 、 改 进 的 


CHI 统计 方法 的 分 类 效果 更 为 
E 确 率 有 明 


CHI 统计 方法 和 结合 改进 的 CHI 统计 方法 的 TF_IDF 算法 三 者 之 


间 的 性 能 ， 实 验 结 果 如 表 4 所 示 : 
表 4 在 不 同 维度 SVM 分 类 器 下 三 种 方法 的 对 比 
维度 传统 的 CHI | 改进 的 CHI | 结合 改进 的 CHI 的 TF-IDF 优化 
200 87.5 88.0 88.5 
400 87.9 88.2 90.5 
600 88.5 89.5 90.8 
800 89.4 90.6 91.9 
1000 90.3 91.2 92.5 
93 
92 + 
91 
SR 90 
尝 88 1 一 9 一 传统 的 cHl 
87 一 个 一 站 运 的 cH 
86 一 和 一 结合 改 送 的 CHI 和 优化 的 TF-IDF 
85 + 
200 400 600 800 1000 
维度 
图 2 不 同 维度 下 SVM 分 类 器 的 准确 率 
将 图 2 与 图 1 的 实验 结果 进行 对 比 可 以 看 出 , 在 相同 的 维 
度 下 ， 结 合 改进 的 CHI 统计 方法 的 TF-IDF 算法 采用 SVM 分 类 
器 的 分 类 效果 比 KNN 分 类 器 的 分 类 效果 好 ， 此 结果 与 其 他 有 关 


微 博 研究 的 结果 基本 一 致 。 
4.4 实验 结果 分 析 


本 文 主要 研究 结合 改进 的 CHI 统计 方法 的 TF-IDF 算法 上 
优化 ， 通 过 对 传统 的 CHI 统计 方法 进行 了 相应 的 改进 


合 语义 相似 度 的 传统 的 TF-IDF 算法 进行 了 结合 优化 。 实 验 的 


结果 显示 : 在 表 1 中 可 以 看 上 
改进 CHI 统计 方法 比 传统 的 


在 500 维度 下 采用 KN 
CHI 统计 方法 的 平均 查 


分 类 器 ， 
准 率 高 


内 
， 并 与 结 


Em my 


0.6 个 百分点 ， 而 本 文 提 出 的 结合 改进 的 CHI 统计 方法 的 TF- 


IDF 


ChinaXiv 合 f 


， 等 : 结合 改进 的 CHI 统计 方法 的 


期 二 


F-IDF 算法 优化 


的 算法 比 传统 的 CHI 统计 方法 的 平均 准确 率 高 出 1. 3 个 百 


分 点 ; 在 表 2 中 可 以 看 出 在 400 维度 下 结合 改进 的 CHI 统计 方 


法 的 IF-IDF 算法 的 优 
原因 的 可 能 是 因为 某 一 个 词语 的 近义词 的 影响 ， 在 600 维度 下 
准确 率 又 得 到 了 提高 ， 将 表 2 与 3 的 实验 结果 数据 进行 对 比 可 
以 看 出 : 在 相同 的 维度 特征 下 ， 采 用 结合 改进 的 CHI 统计 方法 
的 TF-IDF 算法 ， 与 KNN 分 类 器 相 比 ，SVM 分 类 器 的 分 类 效果 更 


化 的 准确 率 上 升幅 度 比 较 小 ， 产 生 这 种 


为 可 观 ， 说 明 SVM 分 类 器 更 适合 于 文本 提出 的 新 方法 ， 最 终 达 
到 了 提高 微 博 情感 分 类 准确 率 的 目的 。 


5 


CHI 


进 的 CHI 统计 方法 的 TF-IDF 算法 优化 。 首 先 针 对 于 传统 的 


结束 语 


通过 对 文本 分 类 技术 的 看 


究 与 试验 ， 本 文 提出 了 结合 


统计 方法 进行 了 相应 的 改进 ， 弥 补 了 传统 的 CHI 统计 方法 


特征 项 出 现 频率 与 类 别 负 相关 的 问题 和 某 一 个 特征 项 存在 于 某 
一 个 文本 中 的 概率 情况 ， 然 后 与 结合 语义 相似 度 算 法 的 TF- 


IDF 
度 ; 


验 结果 分 析 表 明 ， 
法 在 SVM 分 类 器 下 进行 分 类 ， 取 得 了 


分 类 的 准 


算法 结合 优化 ， 从 而 提高 某 个 特征 项 在 文本 中 的 重要 程 

达到 了 降 维 的 效果 ， 最 终 提 高 了 文本 分 类 的 准确 性 。 实 
选择 结合 改进 的 CHI 统计 方法 的 TF-IDF 算 
良好 的 分 类 效果 ， 提 高 了 


E 确 率 。 
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